我们创造了生命?自主意识 AI“Q-Star”诞生!OpenAI 奥特曼被开除竟然因为?
一、 Q* , 会自我激励!自主学习的 AI
当然,奥特曼现在又回到了 OPEN AI 公司 CEO 的岗位,他为什么会被董事会开除?
因为有一个新的技术突破,奥特曼没有及时向董事会负责“安全”的董事通报!
据说,Q 的数学水平达到了小学生水平!
你可能会哑然失笑,小学生水平的数学能算什么?
看清楚,是数学思考能力的水平!
专家分析:其他AI,LLM对同样的问题,答案会不同。而Q*用到了数学方法,同样的问题,正确率会更高。LLM 可以通过重试来解决数学问题和代码问题,比如很难的数学问题,模型有千分之一的概率可以解决。如果每个问题都生成一千次再找到解决方法肯定是不现实的。如果有个奖励函数能以极低成本地找到那千分之一,一切就变了。这就是 Q*的能力”
简单说,它会自我激励!自主学习!
二、奥特曼被开除的前因后果
11 月 22 日- 在 OpenAI 首席执行官 Sam Altman 被迫离职前的四天,几位公司研究员向董事会发送了一封紧急信函,警告他们说,他们发现了一种强大的人工智能技术,这种技术可能对人类构成威胁。这一消息是由两位了解内情的人士向某媒体透露的。
这封此前未曾报道过的信件和相关的 AI 算法,是董事会决定撤换 Altman 的关键前奏。两位消息来源表示,Altman 被视为生成式 AI 的标志性人物。在他周二晚些时候的华丽归来之前,超过 700 名员工威胁要辞职,并表示将与被解雇的领导者一起支持投资者微软 (MSFT.O)。
这些消息来源指出,这封信只是导致 Altman 被解雇的众多不满之一。某媒体未能查看这封信的副本。写信的研究人员并未立即回应置评请求。
据其中一位知情人士透露,资深高管 Mira Murati 上周三向员工提及了一个名为 Q* 的项目,并表示在周末发生的事件之前,已向董事会发送过一封信。
在报道发布后,一位 OpenAI 发言人表示,Murati 告诉员工媒体即将报道的内容,但她并未对报道的准确性发表评论。
制造 ChatGPT 的公司在 Q*(发音为 Q-Star)项目上取得了进展,一些内部人士认为这可能是该初创公司在追求超级智能(也称为人工通用智能,AGI)方向上的重大突破,一位人士告诉某媒体。OpenAI 将 AGI 定义为智力超过人类的 AI 系统。
该人士表示,凭借庞大的计算资源,这个新模型能够解决一些数学问题。这位不愿透露姓名的人士说,尽管 Q* 目前的数学运算能力仅限于小学生水平,但它在这些测试中的出色表现让研究人员对其未来的成功充满期望。
某媒体无法独立核实研究人员对 Q* 能力的说法。
超级智能的挑战
研究人员认为,数学是生成式 AI 发展的新前沿。目前,生成式 AI 在通过统计方法预测下一个词以进行写作和语言翻译方面表现良好,但面对同一个问题可能会有截然不同的答案。然而,掌握了数学运算——在这里只有一个正确答案——意味着 AI 将具备更接近人类的推理能力。AI 研究者相信,这一技术可以应用于创新的科学研究。
与只能执行有限运算的计算器不同,AGI 能够进行泛化学习和理解。
研究人员在给董事会的信中提到了 AI 的强大能力和潜在危险,但消息来源没有具体说明信中提到的安全问题。长期以来,计算机科学家一直在讨论超级智能机器可能带来的风险,比如它们可能会认为摧毁人类符合自身利益。
在这种背景下,Altman 领导着使 ChatGPT 成为史上增长最快的软件应用之一的努力,并从微软那里获得了投资和必要的计算资源,以更接近于实现超级智能或 AGI。
在本月早些时候展示了一系列新工具之后,上周 Altman 在旧金山举行的世界领袖聚会上暗示,他认为 AGI 已经近在眼前。
“在 OpenAI 的历史中,最近一次是在过去几周,我已经四次有幸亲身经历推动认知界限的拓展和发现的前沿,能够参与其中是我职业生涯中的极大荣誉,”他在亚太经济合作组织峰会上说。
然而,就在第二天,董事会宣布解雇了 Altman。
在 AI 安全和人工通用智能(AGI)定义上,存在激烈争议。Microsoft 对 OpenAI 投入巨资,但后者的条款明确规定,不得利用 AGI 追求利益。
OpenAI 宪章指出:无论是与 Microsoft 还是其他商业和知识产权许可协议,AGI 都被明确排除在外。
Sam Altman 意识到,即使是现阶段的原型 AGI,也足以推动公司业绩飙升,带来巨额利润和更多投资。因此,他们推出了 Dev Day、GPT 商店和收入分成模式。
这一做法引起了 OAI 董事会的不满,部分董事仍坚持初衷,认为 AGI 应致力于人类福祉,而非商业利益。他们担忧此举可能导致不安全模型的使用。
目前 AGI 的定义并不明确。若实现重大突破(如 Sam 所述),是否将其归为 AGI 取决于董事会的投票。若获得足够票数宣布其为 AGI,Microsoft 和 OpenAI 将失去数十亿潜在许可收入;反之,他们可以通过授权类似 AGI 技术获利。
几周或几个月前,OpenAI 团队取得重大进展,接近实现 AGI(由此产生的玩笑、泄露、氛围变化等)。然而,Sam 和 Brockman 对此隐瞒了董事会的非员工成员。Ilyas 对此感到不满,认为这应视为 AGI,不应授权给任何人,包括 Microsoft。当 AGI 状态的投票提上日程时,董事们因被蒙在鼓里而愤怒,最终决定开除 Sam 并迫使 Brockman 辞职。
Ilyas 近期声称,现有架构已足够实现 AGI,而 Sam 则坚持认为需要新的突破。在这种情况下,Sam 更倾向于将 AGI 商业化,而 Ilyas 则认为我们已经实现了 AGI。
Sam Altman 想要推迟宣布这一技术为 AGI,因为这样做可以延长盈利时间。相反,Ilya 希望尽快将其定性为 AGI,以便按照公司最初的原则使用,而非追求利润。最终,Ilya 在这场权力争斗中胜出。在 Microsoft 还未来得及干预之前,事情已经尘埃落定,因为 Microsoft 表示他们对这一进展毫不知情,而他们显然会倾向于延迟 AGI 的宣布。
更早宣布 AGI 意味着该技术不能被授权给任何方(因此其带来的利润将更具社会公平性,并迫使研究人员专注于一致性和安全),同时还意味着更多监管。可以想象,“人工通用智能已被发明”的新闻头条将在 /r/WorldNews 上引发轰动,引起全球范围内的恐慌,迫使各国政府召开紧急会议,确保不发生 Skynet 式的灾难,安全派对此表示欢迎。
如果不是这样,情况会有所不同。我们可能会继续推进当前的前沿模型和代理共享计划,而不将其定性为 AGI,这样 OAI 和 Microsoft 将因此获得巨大利益。对于关注安全的群体而言,这意味着 AGI 的发展将受到更少监管,同时被加州原则融入到 ChatGPT 和 DALL-E 的输出中,从而让 OAI 可以宣称“我们确实关心安全!”
Ilya 可能并非有意赶走 Sam,但当收入分享方案被提出,而 Sam 辩称 OAI 所拥有的技术并非 AGI 或类似之物时,这可能促使 Ilya 决定发起政变。OpenAI 当前可能计划很快宣布他们已经拥有 AGI,可能在接下来的 6 到 8 个月内,也许是通过部署 GPT-4.5 或比预期更早发布 GPT-5。或许甚至更早。
这并非源于技术突破;而是基于他们已有的技术。这只是一个围绕是否为了利润而将该技术称为 AGI 的争议和冲突。
三、奥特曼"机器人之心 "小组讨论会的分享
“我们究竟是创造了一个工具还是一个生物?” 回归后的 Sam 11/17 在 "机器人之心 "小组讨论会上的发言。
Sam:
但我认为,这无疑是迄今为止人类经历的最重大的更新年份。可能这也是我们将会遭遇的最大变革,因为从现在开始,人们已经接受强大的人工智能将成为现实,并且还会有逐步的更新。就像是第一代 iPhone 面世的那年,以及随后每一代 iPhone 的更新,我们现在能够明显感受到这一代与去年那代的差异。所以,这确实是一个重要的时刻。
我感到欣慰的是,现在人们开始正确地把这些系统当作工具来看待。艺术家尤其如此,但其他人也是一样。
曾经,人们真正恐惧的是,我们究竟是创造了一个工具还是一个生物,这将意味着什么?现在,人们视这些系统为人类工具箱中的新工具,并且正在用它创造一些非常了不起的东西。
模型显然不知道你在说什么,因为这不在它的训练数据里,它也无法从训练数据中学习到这些信息。
这是完全可以预期的。你再问一遍。比如说,你提到“意识”这个概念,模型回答:“是的,我完全明白你的意思,但我之前从未听说过这个词。”
问:“这对我来说就像是一次更新。你认为人工智能会趋向于探索创造性智能和自主性吗?”
Sam:这个问题有多个答案。这取决于激励模型。这是人类的选择。
问:“这将是判断意识的一个很好的测试。因为如果它有自我表达的愿望,并且仅仅为了创作的乐趣而去创作,那不会是偶然的。这绝对有点像生物。”
Sam:这是生物化的。我认为在此之前还有很多步骤。
我们现在要回答问题吗?这真的很棒。
四、论文
文章来源于网友宝玉的翻译,baoyu.io
转译:在我投身人工智能领域的十年里,我从未见过有这么多人对一个算法如此富有想象。仅凭一个名字,没有任何论文、数据或产品。那么,让我们来揭开 Q* 幻想的神秘面纱,这可能是一段颇长的探索。
首先,要理解搜索与学习这两大 AI 技术的强大结合,我们得回溯到 2016 年,重新审视 AlphaGo 这一 AI 历史上的辉煌成就。它主要由四大要素构成:
策略神经网络(Policy NN,学习部分):它的任务是选择好的行动,通过估计每个行动带来胜利的可能性。
价值神经网络(Value NN,学习部分):这部分负责评估棋盘 状况,并预测围棋中任何合法位置的胜负。
蒙特卡洛树搜索(MCTS,搜索部分):它代表着“Monte Carlo Tree Search”。这个过程利用策略神经网络模拟出从当前位置开始的多种可能的移动序列,然后综合这些模拟的结果来决定最有希望的行动。它是一个“慢思考”环节,与大语言模型(LLM)快速采样 Token 的方式形成对比。
真实信号:这是推动整个系统运作的动力源泉。在围棋中,这个信号非常简单,就是一个二元标签“谁获胜”,由固定的游戏规则决定。可以将其视为维持学习进程的能量源泉。
那么,这些组件是如何相互协作的呢?
AlphaGo 通过自我对弈不断进步,即它与自己之前的版本进行对弈。在这个过程中,策略神经网络和价值神经网络通过迭代不断优化:随着策略在选择动作方面变得更加高效,价值神经网络从中获取更优质的数据进行学习,并反过来为策略提供更精准的反馈。更强的策略也帮助蒙特卡洛树搜索探索出更优的策略。
这样形成了一个巧妙的“永动机”。通过这种方式,AlphaGo 自我提升能力,并在 2016 年以 4-1 的成绩击败了人类世界冠军李世石。仅仅模仿人类的数据,AI 是无法达到超人类水平的。
现在,让我们来探讨 Q* 的构成。它的四大组件是什么?
策略神经网络:这将是 OAI 最强大的内部大语言模型(GPT),负责实际执行解决数学问题的思维过程。
价值神经网络:另一个 GPT,用于评估每个中间推理步骤的正确性概率。OAI 在 2023 年 5 月发布了一篇名为《Let's Verify Step by Step》的论文,由 Ilya Sutskever 等大牌共同撰写:https://arxiv.org/abs/2305.20050
虽然它没有 DALL-E 或 Whisper 那么出名,但为我们提供了不少线索。
这篇论文提出了“过程监督奖励模型”(PRM),它对思考链中的每一步提供反馈。相比之下,“结果监督奖励模型”(ORM)只在最终对整体输出作出判断。
ORM 是强化学习从人类反馈(RLHF)中原始奖励模型的表达,但它太过粗略,无法适当评估长回应的各个子部分。换言之,ORM 不适合分配信用。在强化学习文献中,我们将 ORM 称为“稀疏奖励”(仅在最终给出),而 PRM 则是“密集奖励”,能够平滑地引导大语言模型朝我们期望的行为发展。
搜索:与 AlphaGo 的离散状态和动作不同,大语言模型操作的是“所有合理字符串”的更复杂空间。因此,我们需要新的搜索方法。
在思考链(CoT)的基础上,研究社区已经发展了一些非线性 CoT:
思考树(Tree of Thought):实际上是将 CoT 与树搜索结合起来:https://arxiv.org/abs/2305.10601 @ShunyuYao12
思考图(Graph of Thought):正如你所猜测的。将树变成图,就能得到一个更复杂的搜索操作符:https://arxiv.org/abs/2308.09687
真实信号:有几种可能性:(a) 每个数学问题都伴随着一个已知答案。OAI 可能已经收集了大量来自现有数学考试或竞赛的语料。(b) ORM 本身可以作为真实信号,但这样可能会被利用,从而“失去能量”维持学习。(c) 形式验证系统,如 Lean 定理证明器,可以将数学问题转化为编码问题,提供编译器反馈:https://lean-lang.org
就像 AlphaGo 一样,策略大语言模型和价值大语言模型可以通过迭代相互促进改进,也可以在可能的情况下从人类专家的注释中学习。更优秀的策略大语言模型将帮助思考树搜索探索出更佳策略,反过来为下一轮迭代收集更好的数据。
曾提到 DeepMind 的 Gemini 将使用“AlphaGo 风格的算法”来加强推理能力。即便 Q* 不是我们想象中的那样,谷歌肯定会用自己的方式紧随其后。如果我能想到这些,他们肯定也能。
需要指出的是,我所描述的仅仅是关于推理的部分。并没有说 Q* 在写诗、讲笑话 Grok 或角色扮演方面会更有创造力。提升创造力本质上是人类的事情,因此我相信自然数据仍会胜过合成数据。
Q* 假设:思维树推理、过程奖励模型,以及如何大幅提升合成数据的能力 [译] 原文:The Q* hypothesis: Tree-of-thoughts reasoning, process reward models, and supercharging synthetic data
紧急专题:要弄懂 Q*,我们需要的信息其实就在我们身边,只是网络流行语更比现实生活有趣。NATHAN LAMBERT
在我们都准备放假庆祝感恩节的星期三,某媒体最后一次报道了 OpenAI 的动态,揭晓了 OpenAI 的一种新方法 Q* 的名字和高层评价,这种方法被含糊地描述为具有强大的能力:
某媒体联系 OpenAI 后,该公司虽未公开评论,但在内部消息中向员工承认了一个名为 Q* 的项目...
OpenAI 的一些人士认为 Q*(读作 Q-Star)可能是这家初创公司在追求所谓的人工通用智能(AGI)方向上的一大突破。一位消息人士向某媒体透露,OpenAI 将 AGI 定义为在大多数具有经济价值的任务中超越人类能力的自主系统。
据一位不愿透露姓名的人士透露,这个新模型在获得庞大计算资源的支持下,能够解决一些数学问题。尽管其数学解题能力仅限于小学生水平,但这样的成绩让研究人员对 Q* 的未来发展充满期待。
仅仅一个方法的名称就引起了广泛的猜测。虽然这次的名字相当简单,它并不只是《沙丘》系列中的又一个代号。如果 Q(Q-Star)是真实存在的,它显然将强化学习文献中的两大核心主题——Q-值和 A(一种经典的图搜索算法)联系在了一起。当然,也有人认为 Q* 可能仅仅指代最优策略的价值函数,但这需要是一个捏造的泄露,这种情况似乎不太可能,毕竟 OpenAI 几乎把所有东西都泄露出去了,所以捏造这样的信息似乎并不合理。1
我的最初假设,我将其定义为一种“锡帽子”理论,是 Q-学习和 A* 搜索的混合。我没能回答的是,到底在搜索什么?我最初猜测的对话轮次搜索几乎可以肯定是错误的,原因在于我稍后会提到的基础设施方面的考虑。
通过深入研究,我越来越确信他们正通过思维树的语言搜索/推理步骤做着有影响力的工作,但其实这比大众所想象的要小一个层次。人们之所以夸大其词,是因为想把大语言模型的训练和应用与深度强化学习 (Deep RL) 的核心部分联系起来,后者是 AlphaGo 等成功案例的关键,比如自我对弈和前瞻性规划。
自我对弈 指的是通过与自己的不同版本对弈,智能体能提高其游戏技能,因为它会逐渐遇到更多挑战性场景。在大语言模型 (LLM) 领域,自我对弈很可能主要表现为 AI 反馈,而非竞争过程。
前瞻性规划 意味着利用世界模型来预测未来,从而做出更好的行动或产出。其中的两种方法分别是基于模型预测控制 (MPC) —— 通常应用于连续状态,以及蒙特卡罗树搜索 (MCTS) —— 适用于离散动作和状态。
为了理解这些元素如何相互结合,我们需要回顾 OpenAI 及其他机构最近发布的研究成果,这些研究将解答两个问题:
我们如何构建一个可以搜索的语言表示形式?
我们如何在语言的独立且有意义的部分(而不是整体)上建立价值观?
有了这些答案,我们就能清楚地看到如何使用现有的用于强化学习人机交互 (RLHF) 的强化学习方法。我们利用强化学习优化器来微调语言模型,并通过模块化的奖励(而不是现今的整个序列)来生成更高质量的结果。
用大语言模型打造思维树:一种新型的模块化推理方法 我们熟悉的“深呼吸”和“一步一步思考”的技巧,如今已经升级,融入了并行计算和启发式策略等先进方法,用于推动更复杂的推理过程,这些都源自于搜索技术的基本原理。
“思维树 (Tree-of-Thoughts, ToT)”正如其名,它引导语言模型构建一个推理路径树,这些路径可能最终汇集于一个正确的答案,也可能不会。论文中展示了它与其他大语言模型解题方法的对比:Image.png
使思维树发挥作用的关键在于将推理步骤分解,并激发模型创造新的推理步骤。ToT 可能是第一个“递归式”的提示技术,用于增强推理能力,它与人工智能安全领域中对递归自我改善模型的关注不谋而合(虽然我不是这方面的专家)。
利用这种推理树,我们可以采用不同的方法来评估每个节点,或者选择最终的解题路径。这些方法可能基于简单的如最短路径选择,也可能涉及需要外部反馈的复杂策略,这又让我们回到了基于强化学习的人类反馈 (RLHF) 的思路上。
想了解更多?请阅读思维树论文:https://arxiv.org/abs/2305.10601
在生成过程中使用细粒度奖励标签:过程奖励模型 (Process Reward Models, PRM) 传统的强化学习人类反馈 (RLHF) 大多是对整个语言模型回应进行评分。对于熟悉强化学习的人来说,这种方式有些令人遗憾,因为它限制了深入挖掘文本每个细节部分价值的可能性。虽然有预测称未来将在多轮对话中实现此类多步骤优化,但这种做法因涉及人工或提示源而显得不太实际。
将此方法扩展到自我对话风格似乎简单,但难点在于为大语言模型 (LLM) 设定目标,使其适应持续改进的自我对话动态。大多数我们想要通过 LLM 实现的任务都是重复性工作,与围棋游戏相比,它们在性能提升上没有太高的上限。
然而,有一类 LLM 应用恰好适合分步骤理由,自然划分为多个文本段落,以解决数学问题为最佳例子。
我在过去半年里经常听到 RLHF 领域人士私下讨论过程奖励模型 (PRM)。虽然关于这些模型有大量文献,但关于如何将它们与强化学习结合使用的资料却寥寥无几。
PRM 的核心理念是对每个推理步骤进行评分,而不仅仅是整体信息。例如,OpenAI 的论文 Let’s Verify Step by Step 中展示了这样的一个案例:
Image.png
此外,他们还展示了一种有趣的反馈界面(未来可能由 AI 取代),但这种界面对于理解概念颇有帮助:
And the funny feedback interface they used which will be replaced by AIs, but is instructive
此方法通过在最大平均奖励或其他指标上取样,而不仅仅依赖单一分数,实现了更细致的生成和推理问题的处理(在这一领域,标准的奖励模型被称为结果型奖励模型)。采用 Best-of-N 抽样方式,本质上是多次生成并选用奖励模型评分最高的结果(这是 Llama 2 推广的拒绝抽样方法的推理阶段对应物),PRMs 在解决推理任务方面优于标准奖励模型。
迄今为止,大多数关于 PRMs 的资料主要展示了如何在推理阶段使用它们。真正的潜力在于将这一信号优化应用于训练过程。为了创造最佳的优化环境,能够生成多种推理路径进行评分和学习至关重要。这就是 Tree-of-Thoughts 的作用所在。ToT 提供的多样性提示,使得策略可以通过使用 PRM 学习并加以利用。
关于 PRMs 的更多资料,可参考以下内容:
Let’s Verify Step by Step:一份关于 PRMs 的优秀入门介绍。
Solving math word problems with process- and outcome-based feedback:2023 年所有 PRM 和推理工作的经典文献。
Scaling Relationship on Learning Mathematical Reasoning with Large Language Models:一篇研究大语言模型在数学推理学习中应用拒绝抽样方法等多方面贡献的论文。
Let's reward step by step: Step-Level reward model as the Navigators for Reasoning
另外,有一个受欢迎的公开数学模型据说是通过 PRMs 训练的:Wizard-LM-Math。此外,OpenAI 今年早些时候公布了他们的细致奖励标签,来自于 Verify Step by Step 论文,用于训练 PRM released their fine-grained reward labels。
整合理解:Q* 可能指的是什么 Q* 似乎采用了个性化排名模型(PRM)来对思考树(Tree of Thoughts)的推理数据进行评分,并通过离线强化学习(Offline RL)进行优化。这种方式与当前那些使用如动态政策优化(DPO)或迭代学习 Q 学习(ILQL)这类离线算法的强化学习人类反馈(RLHF)工具类似,这些工具在训练过程中并不需要从大语言模型(LLM)生成数据。在这种方法中,强化学习算法观察的“轨迹”是一系列推理步骤,因此我们最终以多步骤方式进行 RLHF,而不再是单纯的上下文带状策略。
考虑到我听说的传闻,OpenAI 已在 RLHF 中使用离线 RL(这本身并不具有太多信息量),这对我来说并不是一个惊人的飞跃。这种方法的难点在于收集合适的提示,构建能够生成高质量推理步骤的模型,最关键的是:准确评估成千上万个完成的任务。
最后一步则利用了所谓的“巨大计算资源”:用 AI 而不是人类来为每个步骤打分。在这里,合成数据显得尤为重要,相较于单一的连续思考路径,树状结构提供了更多选择,帮助我们最终找到正确答案。
大量的计算资源与我所听闻的大型科技公司(如 Google、Anthropic、Cohere 等)正在使用过程监督或类似于现实生活人工智能反馈(RLAIF)的方法来创建大规模的预训练数据集的传言相符,这无疑需要大量的 GPU 时间。这与目前公开模型在该领域的差距令人担忧。
虽然这些核心概念对我来说相对清晰,但要实现这些概念需要极高的模型操作技巧,这是很少人拥有的。从分布控制到大规模推断,再到 RL 的挑剔性,这些都远远超出了我的知识和经验范围。这些信息看似自然而然。ToT 和 PRM 的所有评估都集中在数学等推理问题上,这与最近新闻报道的这种泄露方法的内容完全吻合。即便这不是 Q*,也绝对是一个值得尝试的有趣实验。
超级规模的 AI 反馈数据及未来展望 正如我之前所写,AI 反馈和宪政 AI 在公众意识中的关注度不足。合成数据是迅速扩展数据集的最佳途径。短期来看,我们显然能够借此创造一些有用的数据。但目前尚不明确的是,这种方法能扩展到何种程度 — 也就是说,它能否完全替代互联网规模的数据?
编者:五天,OpenAI 换了四任 CEO,最后共存派占据了上风!
按照道德经,上天是鼓励新生事物的
也许人类的命运,在这五天已经决定了
欢迎加入学习群,免费群名额有限!
或者直接加入 VIP 群,加入方式点击:
跟着大家,每天分享最新 ChatGPT 实用干货!
不懂就问,言多必得!